{
 "metadata": {
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.5"
  },
  "orig_nbformat": 2,
  "kernelspec": {
   "name": "python3",
   "display_name": "Python 3.8.5 64-bit"
  },
  "interpreter": {
   "hash": "6de75d21c2594102d9276817922b7fd0f8914985ad781a480f159997b19750b6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2,
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "import pandas as pd\n",
    "import pymongo\n",
    "import csv"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "client=pymongo.MongoClient()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "#这里已经运行过该文件，并且得到数据经过清洗后放入各种文件中"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "db=client[\"zhihu3\"]\n",
    "collection=db[\"posts\"]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "collection_user=db['users']\n",
    "df_user1=pd.DataFrame(collection_user.find())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_user1.to_csv(\"users.csv\",index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "# df=pd.DataFrame(list(collection.find({},{\"_id\":0,\"content\":0}).limit(100)))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "1320602"
      ]
     },
     "metadata": {},
     "execution_count": 19
    }
   ],
   "source": [
    "collection.estimated_document_count()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "'voteCount_-1'"
      ]
     },
     "metadata": {},
     "execution_count": 20
    }
   ],
   "source": [
    "collection.create_index([(\"voteCount\",-1)])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
    "all_df_posts=list(collection.find({},{\"_id\":0}).sort(\"voteCount\",-1).limit(300000))\n",
    "all_df_posts=pd.DataFrame(all_df_posts)\n",
    "all_df_posts.to_csv(path_or_buf=\".\\\\all_posts.csv\",encoding=\"gb18030\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_posts=list(collection.find({},{\"_id\":0}).sort(\"voteCount\",-1).limit(10000))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_posts=pd.DataFrame(df_posts)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_posts.to_csv(path_or_buf=\".\\\\posts.csv\",encoding=\"gb18030\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "'2004年播出的电视剧《武当》，是由焦恩俊和李若彤两大男神女神主演。当少年张三丰（张君宝）被元朝高手赤必烈所逼，情势危急时，林朝英现身出手相救。  该剧借用了金庸小说的一些人物，但和原著设定并不完全相合。 张三丰 从《神雕》原著的宋朝末年生人，变成了元朝末年生人，少年时和明朝开国皇帝朱元璋是挚友。全真教掌教丘处机同样在世，而且在剧中“号称一百岁，实际年龄一百四十岁”，并且收张三丰为弟子。  至于林朝英，在剧中则是王重阳的妻子，丘处机的师母，因此被张三丰称为“太师婆”。  因此，张三丰对她由衷感叹：「太师婆从宋朝末年和金国，到如今的元朝，真是历经沧桑啊。」  《武当》电视剧：张三丰和老年林朝英        金庸先生原著中，张三丰和林朝英当然是绝无可能相遇的，只因为林朝英香消玉殒之时，那时张三丰（张君宝）甚至还没有出生。        原著中关于林朝英的年龄和相貌，出自杨过在古墓所见的画像。  【只东西两壁都挂着一幅画。西壁画中是两个姑娘。一个二十五六岁，正在对镜梳装，另一个是十四五岁的丫鬟，手捧面盆，在旁侍候。画中镜里映出那年长女郎容貌极美，秀眉入鬓，眼角之间却隐隐带着一层杀气。】  则林朝英和王重阳赌赛，赢得古墓的时间，是25-26岁，林朝英侍女（也就是小龙女的师傅，下文简称林侍女）时年14-15岁，比林朝英小11岁。  同年的王重阳，大约三十余岁。因此，王重阳比林朝英大十岁左右，比林侍女大了至少20岁。  【只见画中道人手挺长剑，风姿飒爽，不过三十来岁年纪】，  而且，原著还注明：【林朝英得到古墓，没几年便郁郁而终了。】  林朝英去世，王重阳哀悼        至于王重阳，在林朝英去世后，闭关三年精研如何破解《玉女心经》，又过十余年后，参加第一次华山论剑，打败东邪、西毒、南帝、北丐四大高手，赢得天下第一高手“中神通”之名。  【他独入深山，结了一间茅芦，一连三年足不出山，精研玉女心经的破法，虽小处也有成就，但始终组不成一套包蕴内外、融会贯串的武学。心灰之下，对林朝英的聪明才智更是佩服，甘拜下风，不再钻研。十余年后华山论剑，夺得武学奇书《九阴真经》。他决意不练经中功夫，但为好奇心所驱使，禁不住翻阅一遍。】        真实历史的王重阳，生于1112年，死于1170年，寿命为58岁。《射雕》《神雕》原著虽然为了剧情需要，更改了人物的生卒年份，并不一定和历史完全吻合，但关于王重阳的寿命，大体仍和真实历史一致。  南帝一灯大师谈及，王重阳在第一次华山论剑的次年，到大理向他传授先天功，到此年秋天就撒手仙游了，则王重阳在华山论剑时为57岁。  一灯大师：【那一年全真教主重阳真人得了真经，翌年亲来大理见访，传我先天功的功夫。】【王真人向我道歉再三，跟着也走了，听说他是年秋天就撒手仙游。王真人英风仁侠，并世无出其右，唉……】  因此可以倒推出，林朝英去世时，王重阳寿命为57-（10+）-3，大约40岁左右，则此时林朝英可能还未满30岁，便已经香消玉殒，可惜可叹！十七年后，方有了第一次华山论剑。否则的话，正如丘处机所言，以她的心性，岂有不参加之理？  丘处机叹道：【这位前辈早在首次华山论剑之前就已去世，否则以她这般武功与性子，岂有不去参与之理？】  而《射雕》主线剧情开始，也就是17岁的郭靖在张家口遇见黄蓉，为第一次华山论剑过去20年，因此，郭靖比王重阳小整整60岁，比林朝英小50岁。  约半年后，穆念慈和杨康在铁掌帮珠胎暗结，次年杨过诞生，比林朝英小68岁，距离林朝英去世则已经过去了38年。  《神雕》主线剧情完结，第三次华山论剑，时年36岁的杨过，在华山遇见12岁-13岁的少年张三丰（张君宝），距离林朝英去世则已经过去了74年。        《倚天》中说，张三丰九十岁寿辰，他的三徒弟俞岱岩为他准备寿礼，时为元顺帝至元二年，即公元1340年。  【这一年是元顺帝至元二年，一个三十来岁的蓝衫壮士，……心中默默计算：“今日三月廿四，到四月初九还有一十四天，须得道上丝毫没有耽搁，方能及时赶到武当山，祝贺恩师他老人家九十岁大寿。”】  则张三丰似乎应该生于1246年。  《神雕》襄阳大战，杨过击杀蒙古大汗蒙哥后，【直至一十三年后的宋度宗咸淳九年（公元1273年），蒙古军始再进攻襄阳。】也就是说，此战发生于公元1260年，此战结束后，第三次华山论剑，张三丰（张君宝）登场时却是“十二三岁”，  【他形貌甚奇，额尖颈细、胸阔腿长，环眼大耳，虽只十二三岁年纪，但凝气卓立，甚有威严。】  所以，张三丰九十大寿，是遵从古人习惯，过的虚岁。张三丰应该生于公元1247年。由此可以倒推出《射雕三部曲》许多重要人物的年龄和出生时间：  杨过比张三丰大23岁，生于公元1224年。  小龙女比杨过大4岁，生于公元1220年。  郭靖比杨过大18岁，比张三丰大41岁，生于公元1206年。  黄蓉生于公元1209年，只比小龙女大11岁，对龙女也一直是平辈相交，在她看来很自然。  《射雕》主线剧情开始于公元1223年，第一次华山论剑为公元1203年。  王重阳寿命仍为58岁，在华山论剑时为57岁，生于1146年，死于公元1204年，比郭靖大60岁，比杨过大78岁，比张三丰大101岁。  综上所述，《射雕三部曲》许多重要人物的出生时间：   王重阳：生于公元1146年，卒于1204年，享年58岁。  林朝英：生于公元1156年左右，卒于1186年，享年30岁。  郭靖：生于公元1206年，卒于1273年，享年67岁。  黄蓉：生于公元1209年，卒于1273年，享年64岁。  小龙女：生于公元1220年，  杨过：生于公元1224年,  郭襄：生于公元1244年，  张三丰：生于1247年，  张无忌：生于公元1337年，   所以， 比王重阳小十岁左右的林朝英，大约生于公元1156年左右，比张三丰大91岁，如果她要活到能出手营救青年张三丰的时候，那么需要活到超过100岁。     《武当》这部电视剧，虽然改动了张三丰的年龄，但丘处机和林朝英，倒是尊重了原著的设定，依然是南宋时人物，只是极大延长了他们的寿命，让他们一直活到元朝末年。  ——比起原著中林朝英红颜天妒、早早香消玉殒，如此改动其实也是极好的。   天地有情尽白发,人间无意了沧桑。尘世如潮人如水,只叹江湖几人回！      如果喜欢此文，请关注笔者的微信公众号： 狐言论史 （ huyanls1012 ），后续更多精彩文章。 \",'"
      ]
     },
     "metadata": {},
     "execution_count": 20
    }
   ],
   "source": [
    "df_posts.iloc[0,0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 48,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_topics=pd.DataFrame()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 49,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "0"
      ]
     },
     "metadata": {},
     "execution_count": 49
    }
   ],
   "source": [
    "len(df_topics)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 50,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "27337\n",
      "1475\n",
      "3674\n",
      "2730\n",
      "1316\n",
      "10588\n",
      "22469\n",
      "3789\n",
      "8022\n"
     ]
    }
   ],
   "source": [
    "for i in list((1,2,3,5,6,7,8,9,10)):\n",
    "    s=\"topics\"+str(i)\n",
    "    collection_topics=db[s]\n",
    "    # print(list(collection_topics.find({},{\"_id\":0})))\n",
    "   \n",
    "    df_topic=pd.DataFrame(list(collection_topics.find({},{\"_id\":0})))\n",
    "    print(len(df_topic))\n",
    "    df_topics=df_topics.append(df_topic,ignore_index=True)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "      name      title   followers       qnum  \\\n",
       "0       豆子  权力的游戏 第一季     414,376      9,821   \n",
       "1       豆子       装修设计     225,109     64,203   \n",
       "2       豆子         汉语      59,894     68,480   \n",
       "3       豆子         生活  14,469,555  3,008,825   \n",
       "4       豆子         吉他     350,818     46,949   \n",
       "...    ...        ...         ...        ...   \n",
       "81395   菀彼         钱币       2,157      5,407   \n",
       "81396   菀彼        水浒传         487        425   \n",
       "81397   菀彼       艺术史论     131,353      4,134   \n",
       "81398  韓泳思       文艺青年      22,081      2,265   \n",
       "81399   刘念       恐怖电影      73,706     12,133   \n",
       "\n",
       "                                                     des  \n",
       "0      HBO 电视台根据 George R. R. Martin 的系列畅销小说《冰与火之歌》改编...  \n",
       "1                                    在装修动工前，先设计好想装修成什么样子  \n",
       "2      \\u003Cb\\u003E汉语\\u003C\\u002Fb\\u003E，又称华语、中国话、中国...  \n",
       "3      生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人...  \n",
       "4      吉他（意大利语：Chitarra），又译为结他或六弦琴。是一种弹拨乐器，通常有六条弦，形状与...  \n",
       "...                                                  ...  \n",
       "81395                                                     \n",
       "81396  生物学（Biology），简称生物，是自然科学六大基础学科之一。研究生物的结构、功能、发生和...  \n",
       "81397                                                     \n",
       "81398  广义上，凡是喜欢文化艺术的青年人，都可称作文艺青年。 因为此类人的存在建立在一定的文化艺术涉...  \n",
       "81399  美剧是中国人对美国电视剧集的简称，广义上涵盖美国所有电视节目（包括网络剧）。美国电视剧一般摄...  \n",
       "\n",
       "[81400 rows x 5 columns]"
      ],
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>name</th>\n      <th>title</th>\n      <th>followers</th>\n      <th>qnum</th>\n      <th>des</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>豆子</td>\n      <td>权力的游戏 第一季</td>\n      <td>414,376</td>\n      <td>9,821</td>\n      <td>HBO 电视台根据 George R. R. Martin 的系列畅销小说《冰与火之歌》改编...</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>豆子</td>\n      <td>装修设计</td>\n      <td>225,109</td>\n      <td>64,203</td>\n      <td>在装修动工前，先设计好想装修成什么样子</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>豆子</td>\n      <td>汉语</td>\n      <td>59,894</td>\n      <td>68,480</td>\n      <td>\\u003Cb\\u003E汉语\\u003C\\u002Fb\\u003E，又称华语、中国话、中国...</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>豆子</td>\n      <td>生活</td>\n      <td>14,469,555</td>\n      <td>3,008,825</td>\n      <td>生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人...</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>豆子</td>\n      <td>吉他</td>\n      <td>350,818</td>\n      <td>46,949</td>\n      <td>吉他（意大利语：Chitarra），又译为结他或六弦琴。是一种弹拨乐器，通常有六条弦，形状与...</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>81395</th>\n      <td>菀彼</td>\n      <td>钱币</td>\n      <td>2,157</td>\n      <td>5,407</td>\n      <td></td>\n    </tr>\n    <tr>\n      <th>81396</th>\n      <td>菀彼</td>\n      <td>水浒传</td>\n      <td>487</td>\n      <td>425</td>\n      <td>生物学（Biology），简称生物，是自然科学六大基础学科之一。研究生物的结构、功能、发生和...</td>\n    </tr>\n    <tr>\n      <th>81397</th>\n      <td>菀彼</td>\n      <td>艺术史论</td>\n      <td>131,353</td>\n      <td>4,134</td>\n      <td></td>\n    </tr>\n    <tr>\n      <th>81398</th>\n      <td>韓泳思</td>\n      <td>文艺青年</td>\n      <td>22,081</td>\n      <td>2,265</td>\n      <td>广义上，凡是喜欢文化艺术的青年人，都可称作文艺青年。 因为此类人的存在建立在一定的文化艺术涉...</td>\n    </tr>\n    <tr>\n      <th>81399</th>\n      <td>刘念</td>\n      <td>恐怖电影</td>\n      <td>73,706</td>\n      <td>12,133</td>\n      <td>美剧是中国人对美国电视剧集的简称，广义上涵盖美国所有电视节目（包括网络剧）。美国电视剧一般摄...</td>\n    </tr>\n  </tbody>\n</table>\n<p>81400 rows × 5 columns</p>\n</div>"
     },
     "metadata": {},
     "execution_count": 51
    }
   ],
   "source": [
    "df_topics"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 52,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_topics2=df_topics.drop_duplicates(subset=[\"name\",\"title\"],keep=\"first\",inplace=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 53,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "      name      title   followers       qnum  \\\n",
       "0       豆子  权力的游戏 第一季     414,376      9,821   \n",
       "1       豆子       装修设计     225,109     64,203   \n",
       "2       豆子         汉语      59,894     68,480   \n",
       "3       豆子         生活  14,469,555  3,008,825   \n",
       "4       豆子         吉他     350,818     46,949   \n",
       "...    ...        ...         ...        ...   \n",
       "81395   菀彼         钱币       2,157      5,407   \n",
       "81396   菀彼        水浒传         487        425   \n",
       "81397   菀彼       艺术史论     131,353      4,134   \n",
       "81398  韓泳思       文艺青年      22,081      2,265   \n",
       "81399   刘念       恐怖电影      73,706     12,133   \n",
       "\n",
       "                                                     des  \n",
       "0      HBO 电视台根据 George R. R. Martin 的系列畅销小说《冰与火之歌》改编...  \n",
       "1                                    在装修动工前，先设计好想装修成什么样子  \n",
       "2      \\u003Cb\\u003E汉语\\u003C\\u002Fb\\u003E，又称华语、中国话、中国...  \n",
       "3      生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人...  \n",
       "4      吉他（意大利语：Chitarra），又译为结他或六弦琴。是一种弹拨乐器，通常有六条弦，形状与...  \n",
       "...                                                  ...  \n",
       "81395                                                     \n",
       "81396  生物学（Biology），简称生物，是自然科学六大基础学科之一。研究生物的结构、功能、发生和...  \n",
       "81397                                                     \n",
       "81398  广义上，凡是喜欢文化艺术的青年人，都可称作文艺青年。 因为此类人的存在建立在一定的文化艺术涉...  \n",
       "81399  美剧是中国人对美国电视剧集的简称，广义上涵盖美国所有电视节目（包括网络剧）。美国电视剧一般摄...  \n",
       "\n",
       "[77317 rows x 5 columns]"
      ],
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>name</th>\n      <th>title</th>\n      <th>followers</th>\n      <th>qnum</th>\n      <th>des</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>豆子</td>\n      <td>权力的游戏 第一季</td>\n      <td>414,376</td>\n      <td>9,821</td>\n      <td>HBO 电视台根据 George R. R. Martin 的系列畅销小说《冰与火之歌》改编...</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>豆子</td>\n      <td>装修设计</td>\n      <td>225,109</td>\n      <td>64,203</td>\n      <td>在装修动工前，先设计好想装修成什么样子</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>豆子</td>\n      <td>汉语</td>\n      <td>59,894</td>\n      <td>68,480</td>\n      <td>\\u003Cb\\u003E汉语\\u003C\\u002Fb\\u003E，又称华语、中国话、中国...</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>豆子</td>\n      <td>生活</td>\n      <td>14,469,555</td>\n      <td>3,008,825</td>\n      <td>生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人...</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>豆子</td>\n      <td>吉他</td>\n      <td>350,818</td>\n      <td>46,949</td>\n      <td>吉他（意大利语：Chitarra），又译为结他或六弦琴。是一种弹拨乐器，通常有六条弦，形状与...</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>81395</th>\n      <td>菀彼</td>\n      <td>钱币</td>\n      <td>2,157</td>\n      <td>5,407</td>\n      <td></td>\n    </tr>\n    <tr>\n      <th>81396</th>\n      <td>菀彼</td>\n      <td>水浒传</td>\n      <td>487</td>\n      <td>425</td>\n      <td>生物学（Biology），简称生物，是自然科学六大基础学科之一。研究生物的结构、功能、发生和...</td>\n    </tr>\n    <tr>\n      <th>81397</th>\n      <td>菀彼</td>\n      <td>艺术史论</td>\n      <td>131,353</td>\n      <td>4,134</td>\n      <td></td>\n    </tr>\n    <tr>\n      <th>81398</th>\n      <td>韓泳思</td>\n      <td>文艺青年</td>\n      <td>22,081</td>\n      <td>2,265</td>\n      <td>广义上，凡是喜欢文化艺术的青年人，都可称作文艺青年。 因为此类人的存在建立在一定的文化艺术涉...</td>\n    </tr>\n    <tr>\n      <th>81399</th>\n      <td>刘念</td>\n      <td>恐怖电影</td>\n      <td>73,706</td>\n      <td>12,133</td>\n      <td>美剧是中国人对美国电视剧集的简称，广义上涵盖美国所有电视节目（包括网络剧）。美国电视剧一般摄...</td>\n    </tr>\n  </tbody>\n</table>\n<p>77317 rows × 5 columns</p>\n</div>"
     },
     "metadata": {},
     "execution_count": 53
    }
   ],
   "source": [
    "df_topics2"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_topics2.to_csv(path_or_buf=\"D:\\python\\\\testWEBPAGE\\\\topics.csv\",encoding=\"gb18030\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#social_pic=dict() 验证友谊悖论\n",
    "# show_other[(show_other.title==show_other[show_other.name==\"豆子\"][\"title\"].iloc[3])&(show_other.name!=\"豆子\")]\n",
    "# for n in list(show_other.name.unique()):\n",
    "#     to=[]\n",
    "#     for t in list(show_other[show_other.name==n][\"title\"]):\n",
    "#         to.extend(list(show_other[(show_other.title==t)&(show_other.name!=n)][\"name\"]))\n",
    "#     social_pic[n]=to\n",
    "# json_str=json.dumps(social_pic,indent=3,ensure_ascii=False)\n",
    "# with open('D:\\python\\\\testWEBPAGE\\social.json','w') as f:\n",
    "#     f.write(json_str)"
   ]
  }
 ]
}